天量数据怎么处理?天文学提供了6条经验
需要咨询科研服务?点击上方蓝字关注我们
“Nature Research 科研服务” 是自然科研的官方服务号,依托Nature百年积淀, 致力于为中国科研共同体提供全方位的科研服务。
原文作者:Charles Q. Choi
如何将大数据从本地服务器向云端迁移?天文望远镜用户分享了六条宝贵经验。
天文学家典型的工作流程是向天文台申请一段望远镜观测时间,把得到的观测数据下载到本地,再进行分析处理。但随着望远镜产生的数据不断增长,传统方法已经跟不上天文学研究的步伐了。
插图:The Project Twins
在2022年投入运行后,位于智利的维拉·C·鲁宾天文台(Vera C. Rubin Observatory)每晚将收集接近20TB的数据,作为为期十年的“时空遗迹巡天”(Legacy Survey of Space and Time,LSST)计划的一部分。这个数据量与“斯隆数字化巡天”(Sloan Digital Sky Survey)不相上下,“斯隆数字化巡天”在2000年到2010年间绘制了迄今为止最精细的宇宙三维地图。此外,位于澳大利亚和南非的“平方千米阵”(Square Kilometre Array)将在2028年上线,届时每天将产生2PB的数据,是前述数据量的100倍。下一代“甚大阵”(ngVLA)产生的数据会更多,每年达几百PB,几乎是目前甚大阵的1000倍,来自于新墨西哥州阿尔伯克基国家射电天文台的数据管理与软件助理总监Brian Glendenning表示。
如此庞大的数据已经远远超过了传统工作流程的处理能力:将如此多的数据下载并存储在本地是不可行的,西雅图华盛顿大学的天文学家Mario Juric说。构建和维护本地的计算资源来处理这些数据同样是不现实的。位于亚利桑那州图森的LSST数据管理项目经理William O’Mullane估计,从头开发运行LSST项目所需的计算设施以及人员可能需要十年,成本或逼近1.5亿美元。因此 ,他们选择了另一条技术路线,和整个天文学社区一样向云端迁移。下面将分享天文学家在这一过程中得到的六项宝贵经验。
投资算力
仅仅将数据向云迁移还远远不够,研究人员需要对数据进行分析和处理。“与传统天文学家将数据下载到本地电脑上不同的是,现在需要将代码也上传到数据所在的平台,远程进行分析。”鲁宾天文台科学平台的管理者Frossie Economou说。
例如,LSST项目就提供了免费在线接入科研平台的方式,包括Jupyter计算笔记本、网络门户和应用程序接口在内的一系列方式供科学家进行数据分析、浏览、检索等,鲁宾天文台的数据管理科学家Leanne Guy说。LSST的用户使用浏览器就可以远程编程并运行代码来分析整个LSST数据集,这些数据集存储在伊利诺伊州的国家超算应用中心里,而无需将数据下载到自己的电脑里。
其他的学科同样也使用这样的方法获得了成功,例如用于分析地球科学的Pangeo项目与谷歌云合作创建了PB级别的可公开访问并可进行计算分析的大气数据集,使得研究人员可以更容易地协作、规模化、重复研究。美国国家大气研究中心的气象学家Joe Hamman说。
没有大数据也能受益
“即使只有中等规模的数据也能从云计算中受益。”位于马里兰州巴尔的摩的太空望远镜科学研究所的任务科学家Ivelina Momcheva说。他指出,研究人员可以在花费很少的情况下接入远超本地电脑的计算资源,一些云服务商甚至还为教育用户提供了免费的计算资源。
2015年,Mocheva和她的同事仅仅拥有八核的服务器来运行他们的3D-HST项目,这一项目旨在分析哈勃望远镜的数据,以便更好地理解遥远宇宙中塑造星系形状的神秘力量。在计算资源的需求下,他们转向了亚马逊网络服务(AWS),租用了5台32核的服务器。她算了一笔账,在自己电脑上需要三个月才能完成的任务在AWS上只要5天就可以完工,花费不到1000美元。
节省的不仅仅是费用
商用的云服务器是否比本地的数据中心更便宜,人们对此有不同的意见。虽然美国能源部在2011年的麦哲伦报告显示其计算中心比商业云服务便宜3-7倍,但通过代码优化后这种差异也会大幅缩小。华盛顿大学的研究人员通过几个月的优化将基于云服务的实验成本从每次43美元降低到了6美元。Juric估计本地数据中心可能需要他们团队多投入7.5万美元的硬件、电力和人员成本,并且服务器需要在三年内处于87%的活跃状态才有可能达到成本优势,但实际使用中却很少有可能达到如此高的负载水平。
节省的时间还能改变决策过程。“如果在本地数据中心需要9个月来分析处理数据,而相同成本下在云端仅仅需要一个月,中间的8个月就会变得非常有吸引力了。”Juric说。
但这不是非此即彼的选择。项目可以使用本地数据中心进行常规地存储和计算,但在需求激增时可以通过云服务来提高大规模的算力需求进行弥补,O’Mullane说。
同时,弗吉尼亚大学数据科学系主任Philip Bourne说,资助机构可以帮助研究人员获得更好的议价能力。美国国立卫生研究院(NIH)为了精简并顺畅打通数据流,推出“探索、实验和可持续性科学与技术研究基础架构计划”(STRIDES)来有效降低云计算的开销。
“在STRIDES框架下,如果某个机构有一定数量的预算,那么世界各地的谷歌、微软和亚马逊等云服务商便可以相互竞争,从而使研究人员可以获得质优价廉的云服务。”在贝塞斯达(Bethesda)负责STRIDES计划的Susan Gregurick表示。自2018年启动以来,STRIDES已累积帮助研究人员完成了超过225个项目共计2000万计算时的科研计算,节省了约600万美元。
整合数据
通过融合多个数据集,云计算也许能揭示单个数据集中无法获取的深入理解。“天文数据的价值会随着其数据量指数增加,价值越大能用到的地方也就越多。”Momcheva表示。
NIH的Data Commons可以让研究人员储存并共享生物和行为数据及软件,在该项目的启发下,Juric等人开始申请经费,寻求构建天文学领域的数据共享项目,在云端共建天文数据和工具共享的服务。他们希望这一项目可以消除研究人员进入大数据分析所面临的基础设施和软件障碍。他和同事已经发布了一个名为Zwicky Transient Facility的数据集,包含了约20亿个天体的1000亿次观测数据。如果他们的这一项目取得了良好的效果,其他项目也将开始效仿。
Juric说这一项目带来的影响会像谷歌地图及其API一样,大家可以开发各类app,构建出一个充满无限可能的新生态。
不断训练
用户需要在云服务商提供的环境中创建账户、选择合适的环境、安装软件并进行一定的调整,才能在多台机器上运行自己的程序。但Bourne警告云计算环境下犯错的成本很高。“没有经验的研究生会无意中消耗数千个CPU计算时”,而大多数是因为编程错误引起计算机无法完成任务所致。
为了避免这种情况的发生,加州理工学院红外处理和分析中心的高级科学家Bruce Berriman建议用户事先进行培训,例如使用本地机器或学术云运行小规模的实验。他说在云服务中,“计费器是一直在运行的。”
Juric补充道,数据安全性也不容忽视。尽管云服务的隐私和安全性超过了本地资源,但错误配置会带来很多麻烦,缺乏经验程序员会将你的数据暴露在互联网上。“私人数据中心会有更多制度上的限制来保证数据安全,但提供商用服务的公有云则会允许数据公开,使得这种错误成为可能。”
专注于超越
通过低成本或者无成本的方式提供计算资源,云计算使得小型机构也能取得重大发现。“我可以在南非开启一个计算笔记本来接入LSST科研平台上进行计算,这与在普林斯顿所使用的工具一模一样,”O’Mullane说,“我只需要一个浏览器就够了”。
但高效的操作也需要精心地培训,美国国家光学红外天文学研究实验室的研究天文学家Dara Norman说,可以从包括科学工程的云计算(go.nature.com/338hdpt)开始学习,Berriman称它为开启云计算的最佳实践指南。Mikulski天文望远镜数据库(MAST)管理的MAST实验室项目也能提供简单的计算笔记本,指导学习者接入AWS上的MAST数据(go.nature.com/314gxyo),同时还有使用哈勃数据的AWS教程(go.nature.com/33bad0a)。
Norman还说,在与来自较小机构的研究人员合作时需要确保他们提出的想法对于他们来说切实可行,并鼓励与他们的学生建立联系。“如果你的机构中想要招收很多来自较小的、设施服务不完备研究机构的优秀学生,那就尽量让他们参与研究。在研究生阶段就做好这些准备工作,对未来的研究生涯是十分有益的。”
原文以Migrating big astronomy data to the cloud为标题发表在2020年8月3日的Technology Feature上
©Nature
doi:10.1038/d41586-020-02284-7
点击“阅读原文”查看英文原文
更多阅读
| ||
| ||
|
版权声明:
本文由施普林格·自然上海办公室负责翻译。中文内容仅供参考,一切内容以英文原版为准。欢迎转发至朋友圈,如需转载,请邮件China@nature.com。未经授权的翻译是侵权行为,版权方将保留追究法律责任的权利。
© 2020 Springer Nature Limited. All Rights Reserved
喜欢就转发或点个“在看”吧⇣⇣